其他
腾讯 PCG 搜广推机器学习框架GPU 性能优化实践
导读 本次分享的主题是腾讯 PCG 搜广推机器学习框架 GPU 性能优化实践。
主要介绍:1. 为什么 GPU 推荐模型训练框架是刚需
2. GPU 推荐模型训练框架怎么做才最高效
3. 未来展望
分享嘉宾|骆兆楷 腾讯 机器学习框架高级专家
编辑整理|胡俊琪
内容校对|李瑶
出品社区|DataFun
01
首先,系统网络带宽小,不稳定。 另外,很多推荐模型都很大,我们要考虑用多机多卡还是单机多卡,这就涉及到硬件的选型。 第三,云上分配到的 CPU 型号不能保证,有时会有一些 AMD 的 CPU,有时也会是一些英特尔的 CPU,这对于参数服务器架构也是非常不利的,如果 CPU 型号老旧,就会导致性能瓶颈,影响整体训练框架的性能。 第四,云容器非独占,整个机器的 IO 网络都是共享的,因此可能导致整体训练框架不稳定。
GPU 推荐模型训练框架怎么做才最高效
未来展望
分享嘉宾
INTRODUCTION
骆兆楷
腾讯
机器学习框架高级专家
2016 年加入 NVIDIA,参与 TensorRT 开发。2018 年加入阿里巴巴达摩院参与自动驾驶计算中台开发。2020 年加入腾讯 PCG从0-1 参与打造 GPU 推荐领域深度学习计算框架(无量)的开发。
往期推荐
火山引擎ByteHouse:如何为OLAP设计高性能向量检索能力?
大宗产业风控领域的数据探索与实践
「大模型」之所短,「知识图谱」之所长
OPPO 下一代大数据 AI 一体架构实践
划重点!!因果推断两大算法框架解析
如何做好指标诊断与归因分析?
扩散模型与文生视频
算法在 58 画像平台建设中的应用
保姆级拆解向量数据库的结构和应用场景
点个在看你最好看
SPRING HAS ARRIVED